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一 种 高 效 的 CD-CAT 在 线 标定 新 方法 : 
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摘 要 项 目 增补 (Item Replenishing) 对 认 知 诊断 计算 机 自 适应 测验 (CD-CAT) 题 库 的 维护 有 着 至 关 重 要 的 作用 ， 
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fll RMSEA-N 进行 比较 。 


题库 中 项 目的 增补 提供 了 一 种 更 为 高 效 、 准 确 的 方法 。 
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1 引言 


测评 技术 与 计算 机 技术 的 持续 发 展 ,使 得 大 众 
不 仅 追 求 测验 的 效率 , 更 追求 综合 性 的 测验 结果 ， 而 
不 仅仅 是 先 统 的 测验 总 分 。 人 们 淘 望 获取 详实 量 全 
面 的 测验 结果 , 使 其 能 根据 该 结果 对 自身 在 所 测 内 
容 领 域 上 的 强 弱 进行 系统 评估 ， 了 人 解 其 需 改进 或 完 
善 的 地 方 ， 从 而 制定 进一步 的 学 习 计划 。 认 知 诊断 计 
算 机 自 适 应 测验 (Cognitive Diagnostic Computerized 
Adaptive Testing，CD-CAT) 是 认 知 诊断 (Cognitive 
Diagnosis，CD) 与 计算 机 自 适 应 测验 (Computerized 
Adaptive Testing，CAT) 相 结合 的 产物 ， 其 在 提高 测 
验 效率 和 准确 性 的 同时 ， 可 为 被 试 提供 在 所 测 内 容 
领域 上 优 缺 点 的 详细 诊断 (Wang, 2013; Weiss, 1982). 
因此 ,可 根据 被 试 的 诊断 结果 对 其 薄弱 知识 点 进行 
针对 性 地 教学 补救 ， 较 好 地 满足 了 当今 大 众 对 于 高 


炉 的 信息 增益 的 在 线 标定 方法 ( 记 为 IGEOCM), 该 方法 利 
参数 。 研 究 采 用 Monte Carlo 模拟 实验 验证 所 开发 新 方法 
明 : 新 开发 的 IGEOCM 在 各 实验 条 件 
AS, 日 整体 上 优 于 已 有 的 SIE 等 方法 ; 同时 , IGEOCM 标定 新 题 月 


而 在 线 标定 是 一 种 重要 的 项 目 增补 方式 。 基于 数据 挖掘 中 特征 选择 (Feature Selectiom) 的 思路 ， 


提出 一 种 高 效 的 基于 
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的 效果 , 并 同时 与 已 


被 试 在 新 | 


日 题 上 的 作答 联合 估计 新 题 的 O 矩阵 和 项 目 
的 在 线 标定 方法 SIE, SIE-R-BIC 


均 具有 较 好 的 项 目标 定 精度 和 项 目 估计 效 
f 需 的 时 间 低 于 STE 等 方法 .总 之 , 研究 为 CD-CAT 


自 适应 测验 , 项 目 增补 ,在线 标 定 , O IERE, 炉 的 信息 增益 


CD-CAT 使 用 的 前 提 是 已 建构 好 的 题库 。 但 是 
题库 中 的 部 分 题目 会 随时 间 的 流逝 过 度 曝 光 或 变 
得 过 时 ， 这 时 需 使 用 新 题 对 这 些 题目 进行 替换 或 者 
增补 (Chen, 2017)。 具 体 来 说 ， 需 邀请 有 经 验 的 领域 
专家 和 心理 测量 学 家 根据 诊断 目的 编制 新 题 ， 然 后 
估计 新 题 的 参数 ， 并 将 其 与 题库 中 的 旧 题 置 于 同一 
量 尺 之 上 。 在 线 标定 技术 是 传统 CAT 中 一 种 有 效 
的 项 目 增补 方法 ， 它 是 指 在 测验 过 程 中 ,让 被 试 同 
时 作答 新 题 与 日 题 ， 然 后 根据 其 作答 标定 新 题 参 数 
的 过 程 ， 且 施 测 者 需 告 知 被 试 他 们 作答 的 部 分 项 目 
将 不 用 于 最 终 能 力 的 评估 ( 陈 平 ， 辛 涛 ，2011a)。 相 
比 于 传统 的 项 目 增补 方法 ,在 线 标定 技术 的 优点 在 
于 :(1) 无 需 复杂 的 事后 等 值 技术 便 可 将 新 旧 题 的 参 
数 置 于 同一 量 尺 之 上 (Chen && Wang, 2015); (2) 无 需 
外 部 标定 研究 便 能 在 估计 被 试 能 力 的 同时 标定 新 题 
的 参数 ， 可 节省 大 量 人 力 和 物力 ; (3) 相 同 的 测量 模 
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效 且 周密 的 测验 的 需求 , 有 着 广泛 的 应 用 前 景 
(Leighton et al., 2004; Liu et al., 2013)。 
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式 使 得 被 试 在 作答 新 旧 题 时 具有 相同 的 动机 (Chen 
et al., 2012)。 迄 今 为 止 ,在 单 维 计算 机 自 适 应 测验 
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(Unidimensional Computerized Adaptive Testing, 
UCAT) 和 多 维 计算 机 自 适应 测验 (Multidimensional 
Computerized Adaptive Testing, MCAT) 领 域 , 研究 
者 已 推荐 了 多 种 高 效 的 在 线 标定 方法 (Chen, 2017)。 
在 UCAT 中 , Stocking (1988) 提 出 方法 A (Method A) 
和 方法 B (Method B), Wainer 和 Mislevy (1990) 推 荐 
一 个 EM 循环 的 边际 极 大 似 然 估计 方法 (OEM)， 随 
后 Ban 等 人 (2001) 提 出 多 个 EM 循环 的 边际 极 大 似 
然 估 计 方 法 (MEM) 以 及 BILOG/ 先 验方 法 (BILOG/ 
Prior method)。 此 外 ,为 克服 Method A 方法 将 估计 
能 力 值 当做 被 试 能 力 真 值 的 理论 缺陷 ， 陈 平 (2016) 
提出 了 FFMLE-Method A 和 ECSE-Method A 方法 。 
在 MCAT 中 , Chen 等 人 (2017) 对 Method A, OEM 和 
MEM 方法 进行 拓展 ， 称 其 为 M-Method A, M-OEM 
和 M-MEM。 且 在 M-OEM 和 M-MEM 方法 的 基础 
上 推荐 M-OEM-BME 和 M-MEM-BME 方法 以 用 于 
MCAT 中 项 目 参数 的 标定 (Chen, 2017)。 

然而 ， 目 前 CD-CAT 中 关于 在 线 标定 方法 的 研 
究 较 少 , 主要 包含 了 两 大 类 。 第 一 类 方法 主要 有 
Chen 等 人 (2012) 提 出 的 CD-Method A, CD-OEM 与 
CD-MEM 方 法 ， 其 基于 Method A, OEM 与 MEM 提 
出 。 这 类 方法 在 标定 新 题 时 ， 假 设 新 题 的 O 和 矩阵 已 
知 ， 仅 标定 新 题 的 项 目 参 数 。 事 实 上 , 2 矩阵 作为 认 
知 诊断 的 核心 成 分 , 在 多 数 情况 下 都 是 未 知 的 。 实 
mE, O 矩阵 多 由 内 容 领 域 专 家 和 测量 学 专家 共同 
FE, 需 耗 费 大 量 的 人 力 和 物力 , 且 由 专家 界定 的 
O 矩阵 容易 受到 主观 因素 的 影响 而 造成 界定 错误 。 
而 2 和 矩阵 的 错误 界定 最 终 会 影响 项 目 参 数 的 估计 
精度 与 被 试 的 分 类 正确 性 (de la Torre & Chiu, 2016; 
Rupp & Templin, 2008)。 因 此 , 第 二 类 在 线 标定 方 
法 应 运 而 生 ， 其 同时 标定 新 题 的 O 和 矩阵 与 项 目 参 数 ， 
以 期 减少 项 目标 定 所 耗费 的 人 力 物 力 ， 提高 项 目标 
定 效 率 。 陈 平和 辛 涛 (2011b) 提 出 的 联合 估计 算法 
(Joint Estimation Algorithm, JEA), Chen 等 人 (2015) 
提出 的 SIE (Single-Item Estimation) 方 法 以 及 谭 青 
#8 (2019) #214 49 SIE-R-BIC 和 RMSEA-N 等 方法 均 
属于 该 类 方法 。JEA 方法 借鉴 项 目 反应 理论 (Item 
Response Theory，IRT) 中 被 试 参数 与 项 目 参 数 的 联 
合 极 大 似 然 佑 计 (Joint Maximum Likelihood Estimation, 
JMLE) 思 路 , 将 CD-CAT 中 被 试 的 属性 掌握 模式 估 
计 值 视 为 被 试 属性 掌握 模式 真 值 ,然后 基于 被 试 属 
性 掌握 模式 估计 值 以 及 被 试 在 新 题 上 的 作答 使 用 极 
大 似 然 估计 (Maximum Likelihood Estimation, MLE) 
的 方法 来 联合 估计 新 题 的 O 矩阵 和 项 目 参数 。 不 同 


T JEA 方法 ，SIE 使 用 属性 掌握 模式 的 后 验 分 布 来 
代替 属性 掌握 模式 估计 值 ， 计 算 每 一 个 被 试 的 后 验 
预测 分 布 ， 然 后 使 用 MLE 来 估计 新 题 的 O HERE. 
与 此 同时 ，SIE 方法 中 运用 EM 算法 来 估计 新 题 的 
项 目 参 数 。SIE-R-BIC 方法 是 在 SIE 方法 的 基础 上 
提出 ， 其 标定 新 题 时 充分 利用 了 题库 中 已 有 项 目的 
信息 ,而 RMSEA-N 方法 通过 评估 观察 作答 分 布 与 
期 望 作答 分 布 间 的 一 致 性 来 标定 新 题 ( 谭 青 其 , 2019)。 
相 比 于 JEA 方法 , SIE, SIE-R-BIC 和 RMSEA-N 方 
法 在 OQ 矩阵 标定 精度 上 有 一 定 的 提升 ， 而 在 标定 效 
RE, 各 方法 均 耗 时 较 长 ,新 题 标定 效率 相对 较 
低 。 因 此 , 在 CD-CAT 情境 下 , 开发 能 提升 新 题 标 
定 精度 和 标定 效率 的 方法 是 极为 必要 的 。 

数据 挖掘 作为 数据 库 和 人 工 智能 领域 研究 的 
热点 问题 ， 其 面临 的 首要 问题 是 如 何 才能 从 海量 数 
据 中 获得 有 效 信息 ， 从 而 达到 数据 信息 的 高 效 利用 
(Chandrashekar & Sahin，2014)。 特 征 选 择 (Feature 
Selection) 是 有 效 的 解决 方法 之 一 ,其 可 通过 删除 
数据 中 宛 余 或 无 关 的 特征 ,从 海量 的 数据 中 选择 最 
为 有 效 的 特征 集 ， 以 达到 提高 分 类 准确 率 以 及 效率 
的 目的 (Guyon & Elisseeff, 2003)。 特 征 选择 过 程 中 
极为 重要 的 一 环 是 特征 选择 标准 ， 其 通过 衡量 特征 
与 分 类 之 间 的 关系 来 删除 数据 中 的 无 关 特 征 。 特征 
选择 中 使 用 信息 增益 、 互 信息 、 归 一 化 互信 息 以 及 
条 件 互信 息 等 作为 特征 选择 标准 ， 这 类 标准 通过 评 
估 特 征 的 分 类 准确 性 来 选择 最 佳 的 特征 (Fleuret, 
2004; Hoque et al., 2014; Pereira et al., 2015; Vinh et 
al., 2012)。 特 征 对 被 试 的 分 类 越 精 确 ， 则 选择 该 特 
征 的 可 能 性 越 高 ， 若 特征 对 被 试 的 分 类 相当 于 随机 
水 平 , 则 选择 该 特征 的 可 能 性 越 低 。 

受 数据 挖掘 中 特征 选择 的 启发 ， 提 出 如 下 逻辑 
假设 : 在 CD-CAT 中 标定 新 题 时 ， 可 利用 特征 选择 
方法 来 标定 新 题 的 2 抑 阵 ， 并 基于 该 2 矩阵 来 估计 
新 题 项 目 参数 。 将 新 题 所 有 可 能 的 q 向 量 视 为 待 选 
择 的 特征 ,在 被 试 属性 掌握 模式 已 知 的 情况 下 , 通 
过 特征 选择 标准 评估 每 一 个 可 能 4 向量 对 被 试 分 类 
的 效果 ,然后 选择 能 使 特征 选择 标准 最 佳 的 q 向 量 
作为 新 题 的 qg 向量。 基于 该 假设 , 研究 提出 一 种 新 
的 CD-CAT 在 线 标定 方法 , 该 方法 基于 特征 选择 方 
法 联合 在 线 标定 新 题 的 2 矩阵 和 项 目 参 数 (该 方法 
的 基本 过 程 、 思 路 及 公式 等 将 在 文章 第 3 部 分 详细 
介绍 )， 以 期 为 CD-CAT 在 线 标定 提供 新 的 视角 及 新 
的 方法 ， 从 而 进一步 推动 认 知 诊断 尤其 是 CD-CAT 
在 实践 中 的 发 展 与 应 用 。 
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2 已 有 在 线 标定 方法 


目前 ，CD-CAT 中 同时 标定 新 题 O XB Me A H 
参数 的 在 线 标定 方法 主要 有 JEA (ME, 辛 涛 , 2011b), 
SIE (Chen et al., 2015), SIE-R-BIC 和 RMSEA-N 方 
AOE X, 2019)。SIE 方法 基于 JEA 方法 在 决定 型 
输入 噪音 与 门 模型 (the Deterministic Input, Noisy 
and Gate Model, DINA; Junker & Sijtsma, 2001) 下 
提出 ， 其 标定 新 题 时 考虑 了 被 试 属 性 掌握 模式 的 佑 
计 误 差 , 在 标定 新 题 2 矩阵 和 项 目 参 数 时 充分 利用 
被 试 的 属性 掌握 模式 后 验 分 布 。 

SIE 方法 标定 新 题 时 包含 了 O 矩阵 标定 和 项 目 
参数 标定 两 个 部 分 。 对 于 新 题 2 矩阵 的 标定 ,首先 
基于 被 试 在 旧 题 上 的 作答 计算 作答 了 新 题 j 的 被 试 
的 属性 掌握 模式 后 验 分 布 。 随 后 ,根据 被 试 属性 掌 
握 模式 后 验 分 布 及 每 种 属性 掌握 模式 在 q WEN q; 
的 新 题 / 上 的 正确 作答 概率 计算 具有 某 一 特定 作答 
Ry 的 被 试 ;的 后 验 预测 分 布 ; 

E(q5,8,;,5;) - P(Ry -1|g5,g,,5;)7 

yx 


DEACAIR CTET A) (1) 


c=l 


其 中 天 为 测验 测量 的 属性 个 数 , zz(xo) 表 示 被 试 守 的 
属性 掌握 模式 为 a 的 概率 ,其 基于 被 试 i 在 旧 题 上 
WIVES ITE, Pq), gj Sp ca 表示 DINA 模型 下 属性 
掌握 模式 为 a 的 被 试 在 项 目 7 上 的 正确 作答 概率 。 
最 后 ,结合 被 试 后 验 预测 分 布 及 其 在 新 题 ) ERSTE 
答 Rj 构建 似 然 并 最 大 化 似 然 函数 来 估计 新 题 的 gq 
向 量 ,其 表达 式 如 下 : 


qj - arg max L(gqj, 8j,5)) E 
9g; €Q; 


4,€0; | i=l 
其 中 ,= 28 1 表示 新 题 /所 有 可 能 4 向量 的 集合 。 
此 外 , SIE 方法 使 用 EM 算法 来 估计 新 题 的 项 目 参数 。 

SIE-R-BIC 方法 在 SIE 方法 的 基础 上 考虑 了 模 
型 的 复杂 性 ， 其 佑 计 新 题 2 和 矩阵 时 构建 了 BIC 指标 
并 通过 最 小 化 BIC 指标 来 估计 新 题 g 向 量 ， 表 达 式 
如 下 所 示 : 

qj = arg min BIC ;(4;,2;.5;) = 
4j€0; 


rs * R, * il 
vemos FL "[l- £(q5.2,.5;)] | (2) 


arg min[L; (5, g j,5;) + Alog(n;)] (3) 
4; €Q; 


其 中 Hog(nj) 表 示 模 型 复杂 性 的 惩罚 , 4 表示 自由 参 
数 的 个 数 , nj 表示 作答 新 题 j 的 被 斌 人数, 与 此 同时 ， 
SIE-R-BIC 方法 在 标定 新 题 项 目 参数 时 利用 了 题库 


中 已 有 项 目的 信息 ,也 即将 题库 中 和 新 题 具 有 相同 
q 向 量 的 旧 题 的 项 目 参 数 均值 作为 新 题 的 项 目 参数 
初始 值 。RMSEA-N 方法 中 项 目 参 数 的 标定 与 
SIE-R-BIC 方法 一 致 , 但 其 通过 评估 观察 作答 分 布 
与 期 望 作答 分 布 间 的 一 致 性 来 标定 新 题 的 2 矩阵 。 
具体 来 说 ,选择 能 使 观察 作答 分 布 与 期 望 作答 分 布 
间 一 致 性 程度 最 高 的 9 向 量 作 为 新 题 j 的 估计 4g 向 
量 , 其 公式 如 下 : 


qj E wc a 
djee;j 


2K E 
arg min Breton (ce) 已 Nobserved (a, yr (4) 


qieQ; Vc 

其 中 P(co) 表 示 第 c 个 属性 掌握 模式 we 的 被 试 边际 
MESE, P_Nexpected( tc) ll P_Nobserved( 0c) 23 IRRE c 4 
属性 掌握 模式 a. 下 标准 化 的 期 望 正确 作答 概率 和 
观察 正确 作答 概率 。 


3 AEP ABS fri 
(IGEOCM) 


3. IERD IER ECT BUE BIS 

数据 挖 气 中， 特征 选择 的 目的 之 一 在 于 选择 对 
数据 具有 高 区 分 能 力 的 特征 , 车 基于 某 一 特征 的 分 
类 与 随机 分 类 的 结果 大 同 小 异 , 则 说 明 这 一 特征 对 
于 数据 的 分 类 效果 较 小 ( 李 航 , 2012). HET AR [53 
增益 (Information Gain of Entropy-based, IGE) 是 特 
征 选择 中 的 一 个 特征 选择 准则 ， 某 一 特征 所 具有 的 
SEP GY f EE a EGER, 则 其 对 于 数据 的 分 类 能 
力 越 强 (Pereira et al., 2015), JE Tn E asit 
择 最 优 特征 的 过 程 如 下 : 

(1) 首 先 , 确定 数据 集 R 以 及 对 该 数据 集 进行 分 
类 的 特征 。 

QUIS, RARER R BAR 

1 


n n 
E(R)=-) —log—-, 5 
(R) m s~ (5) 


上 式 中 , n 为 数据 集 R 的 样本 量 , x 表示 数据 集 R 中 
的 类 别 , n, 为 数据 集 R 中 属于 第 x 个 类 别 的 样本 量 。 
炉 用 于 评估 数据 集 R 的 不 确定 性 程度 ， 其 值 越 大 ， 
数据 集 R 的 不 确定 性 程度 越 大 。 不 确定 性 程度 指数 
PER R 中 被 试 的 一 致 性 程度 ,， 知 数 据 集 R 中 的 被 试 
均 属于 同一 个 类 别 ， 则 不 确定 性 程度 最 低 。 
(3) 随 后 , 计算 某 一 特征 4 OT HEE R BS A TERRI 
` nj, [X Nhy log Max | , (6) 
h=1 x=0 "h ny, 


其 中 , H HRE A 的 取 值 个 数 , ni 表示 数据 集 R 中 属 


增益 在 线 标定 方法 


E(R| A) 
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于 第 有 个 类 别 的 被 试 数量 , nj 表示 数据 集 R 中 第 
个 子 类 别 下 , 被 试 属于 第 x 个 类 别 的 数量 。 条 件 炉 
用 于 评估 给 定 某 一 特征 (4) 的 情况 下 ,数据 集 R 的 
不 确定 性 程度 。 与 炉 一 致 ,条 件 烂 的 值 越 大 ， 数据 
4E RR 的 不 确定 性 程度 越 大 ， 则 基于 特征 A 的 分 类 效 
果 越 差 。 

(4) 最 后 ， 计 算 焙 的 信息 增益 值 

g(R, A) = E(R)-E(R|A). (7) 

ARS fe EM at g(R, A) IS AR AE Ze, Howe 
示 在 给 定 特征 4 的 信息 的 情况 下 ,数据 集 R 的 不 确 
定性 减少 的 程度 。 其 值 越 大 , 说 明基 于 特征 4 的 分 
类 效果 越 好 。 

(5) 对 于 所 有 特征 , 重复 (3) 和 (4)， 比 较 各 特征 
AM fr SS a TEL. EPEAT Te RH EY a (RE 
特征 作为 最 优 特征 。 

RARITA ER EARP TAERE R ARCER) 
和 特征 4 对 数据 集 R ARLE I(E(R|A)). HEX) 
可 看 出 , 数据 集 R 的 炉 值 的 计算 与 特征 无 关 ， KA 
Tait, 所 有 特征 下 数据 集 R 的 炉 (Z(R)) 均 保持 不 变 。 
因此 ， 基 于 灼 信息 增益 选择 特征 本 质 上 是 基于 条 
件 炉 选择 特征 ， 某 一 特征 对 数据 集 R 的 条 件 炉 越 小 ， 
则 该 特征 的 分 类 效果 越 好 ,该 特征 更 有 可 能 是 数据 
集 的 最 优 特 征 。 

BLT AY q 向 量 估计 可 视 为 一 个 特征 选择 问题 ， 
即 从 所 有 可 能 的 9 向 量 中 为 新 题 / 选择 一 个 最 佳 q 
向 量 。 将 被 试 在 新 题 上 的 作答 看 作 数 据 集 R， 新 
题 所 有 可 能 的 q 向 量 看 作 特 征 ， 基 于 4 向 量 和 被 
试 的 估计 属性 掌握 模式 对 被 试 进行 分 类 ， 则 能 使 被 
试 分 类 的 不 确定 性 程度 达到 最 低 的 g 向量 为 作答 数 
PER R 的 最 优 特 征 ， 因 此 可 选择 该 g 向 量 作为 新 题 
j 的 估计 4 癌 量 。 基 于 该 思路 , 提出 新 的 在 线 标定 方 
法 一 基于 炉 的 信息 增益 的 在 线 标定 方法 (Information 
Gain of Entropy-based Online Calibration Method, 
IGEOCM)， 该 方法 使 用 烂 的 信息 增益 来 标定 新 题 的 
2 和 矩阵， 同时 使 用 EM 算法 来 标定 新 题 的 项 目 参数 。 
3.2 BTN BRRERMEDAEF A 

DINA 作为 广泛 应 用 的 认 知 诊断 模型 之 一 , 在 
每 个 项 目 上 均 只 有 失误 参数 和 猜测 参数 这 两 个 简 
单 旦 易于 解释 的 项 目 参 数 ， 且 常 被 用 于 CD-CAT 题 
库 的 构建 及 在 线 标定 (Junker & Sijtsma, 2001; Liu et 
al., 2013)。 为 了 便于 说 明 问 题 以 及 与 国内 外 同类 方 
法 (SIE 方法 等 ) 进 行 比较 , 以 DINA 模型 为 例 来 说 
明基 于 炉 的 信息 增益 的 在 线 标定 方 法 IGEOCM) 标 
定 新 题 的 基本 思路 及 其 过 程 。 


3.2.1 IGEOCM 中 的 Q 矩阵 标定 

当 新 题 所 测量 的 属性 个 数 玉 已 知 时 ， 新 题记 所 
有 可 能 的 g 向 量 个 数 为 2* — 1, 其 中 不 包含 元 素 全 
为 0 的 向 量 。 从 特征 选择 的 视角 ,新 题 j q 向 量 
估计 便 是 从 2  — 1 种 可 能 gq 向 量 中 选择 最 合适 的 一 
个 g 向 量 作为 新 题 j 的 估计 g 向 量 。 IGEOCM 中 基 
于 炉 的 信息 增益 这 一 特征 选择 准则 来 估计 新 题 j 的 
q 向 量 ， 其 表达 式 如 下 所 示 : 
8(R5,4;) = E(Rj)-E(R; |4;) z 


: N jx Nix l ng 1 N jnx Ninx ||» 
HP, R; = (Rij,…,R,j) RAB n PBA EL ER 
作答 反应 向 量 ， 即 新 题 j 上 的 被 坛 作答 数据 集合 。 
nj 表示 作答 了 新 题 j 的 被 试 人 数 ,x 表示 被 试 在 项 目 
j 上 的 得 分 ,二 级 计 分 下 ,zx = 0 或 x = 1o ny RATE 
答 了 新 题 j 的 nj 个 被 试 中 在 新 题 j/ 上 得 分 为 x 的 被 
RAB 表示 基于 gq 向 量 对 被 试 进行 分 类 的 类 别 。 
DINA 模型 中 ,基于 被 试 的 属性 掌握 模式 与 项 目的 
q 向量 可 将 被 试 划分 为 2 个 类 别 ( = 1 9X à =0), Bll 
掌握 组 与 非 掌握 组 。 掌握 组 被 试 掌 握 了 项 目测 量 的 
所 有 属性 ， 非 掌握 组 被 试 在 项 目 所 测量 的 属性 中 至 
少 有 一 个 属性 未 掌握 。 nj 表示 作答 新 题 j 的 nj 个 被 
试 中 属于 第 h 个 类 别 的 被 斌 人数。njs BARTER 
题 j 有 旦 属于 第 个 类 别 的 wi 个 被 试 中 在 新 题 ; 上 得 
分 为 x 的 被 试 人 数 。 对 于 新 题 j 的 所 有 可 能 gq 向 量 ， 
作答 新 题 j 的 被 试 人 数 (nj) 以 及 每 个 被 试 在 新 题 j/ 上 
的 得 分 x 都 是 不 变 的 。 因 此 ， 基 于 炉 的 信息 增益 标 
定 新 题 q 向 量 的 本 质 在 于 , 在 新 题 j 的 g 向 量 未 知 
的 情况 下 ,选择 能 使 条 件 焙 ER qA q 向 量 作 
为 新 题 j 的 估计 9 向 量 ， 其 表达 式 为 : 

qj -argmin(E(R; E» : (9) 


4;€0; 

在 被 试 属性 掌握 模式 已 知 的 情况 下 ( 即 CD-CAT 
中 基于 被 试 在 旧 题 上 的 作答 估计 属性 掌握 模式 )， 
d UBL; 的 gq 向 量 正 确 且 被 试 在 新 题 ) 上 的 作答 不 
存在 失误 和 猜测 ,那么 基于 正确 9 向 量 分 类 后 掌握 
组 中 的 所 有 被 试 在 新 题 / 上 的 观察 得 分 都 应 为 1, 
而 非 掌 握 组 中 的 被 试 在 新 题 / 上 的 观察 得 分 都 应 为 
0。 此 时 , 掌握 组 与 非 掌握 组 中 的 被 试 都 具有 高 度 一 
BE, AWE PEI), TAR AR IY ARE ECR qi 
小 , 信息 增益 eR, gj 最 大 ,因此 正确 4 向 量 的 分 类 
效果 最 好 。 者 被 试 的 属性 掌握 模式 为 均匀 分 布 且 被 
试 在 新 题 / 上 的 作答 不 存在 失误 和 猜测 ， 新 题 /的 4 
向 量 正确 和 错误 情况 下 E(Rjlq)) 和 gR, 9)) 的 变化 如 
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表 1 所 示 。 PER la) nafi 1 |.o 
IGEOCM "f il xt Beh tt A Pr i (9,= as? n,\8, 1-8)” 
arg min(E(R; 147) 佑 计 新 题 j 的 9 向 量 的 合理 性 证 ZER. |q) m, 
eb. j à 1 qj jo E x E «0, (13) 
明 如 下 : 8; n; \8; 1-8; 


n 


ln, 1 n, . 

_ jh jhx jhx ||. 

E(R; v > 2 | > PE log — J 
h-0 “7 V x20 “jh jh 


0 00 00 01 01 


j \ jo Mjo Mjo Nig 


(n d (10) 


jl 
在 DINA AYP, $, sU (mn 表示 作答 新 题 
Jl 
7 HU n, Ari PAT ERA, no RRM: 
BI RFEA n 个 被 试 中 在 新 题 / 上 得 
分 为 0 的 被 试 人 数 )，8) = (wm 表示 作答 新 题 / 
j0 
的 雯 个 被 试 中 属于 非 掌握 组 的 被 试 人 数 ，nmor 表示 
作答 新 题 且 属 于 非 掌握 组 的 no 个 被 试 中 在 新 题 j 
上 得 分 为 1 的 被 武人 数 ), 将 其 代入 ERa), 可 得 


E(R; | v) a-e nt 8) Et 
j 


E 


2t) 0-4) (11) 
j 


对 ECR BORK $, 和 &; 的 偏 导 数 ， 并 令 其 等 


s_s_l ma xa 5 
则 E(Rjq) 在 &)=$) = 了 处 取得 最 大 值 。 45,8, e 


(0,0.5) 时 , ECRilgj) 单 调 递增 。 

另外 , 根据 Yu 和 Cheng (2020) 的 研究 ， 当 
7 一 oo， 属性 掌握 模式 已 知 ， 且 s; gE(0, 0.5) 时 ， 以 
下 等 式 成 立 : 


a incorrect a correct 
$ (qj) 8, (qr), 


8j V dnd ) > 8j qoe) . (14) 

因此 , 在 被 试 的 属性 掌握 模式 以 及 被 试 在 项 目 

7 上 的 作答 已 知 ，$;,&; e (0,0.5) 的 情况 下 ,新 题 j 的 
q 向量 可 通过 最 小 化 条 件 炉 来 估计 : â= 
argmin(E(R, 4;) ,与 此 同时 ， 网络 版 附录 中 [ 例 11 


4;€Q; 
通过 举例 进一步 说 明了 IGEOCM fe/ MELA TERIS 
计 新 题 j 的 gq 向 量 的 合理 性 。 
3.2.2 IGEOCM 中 的 项 目 参数 标定 

IGEOCM 方 法 中 使 用 EM 算法 来 估计 新 题 的 项 
目 参 数 ，EM 算法 在 每 一 次 迭代 中 都 包含 期 望 步 又 
(Expectation Step, E-step) 和 最 大 化 步骤 (Maximization 
Step，M-step) 两 步 (Chen et al., 2015)。 在 E-step "F, 
首先 基于 被 试 ; 在 新 题 / 上 的 作答 Rj 计算 每 个 被 试 
的 后 验 分 布 ， 其 公式 如 下 : 


& 


Post, (a) = 
» 2 (GPG jo jo5jo%) "P; (05.8/555,0,)] V 
OE(R;|qj) ng t s; zi E . (15) 
— Ó— 5 一 “， » LR, 
08; nj De > n(o)P,(8;,8j,5;,a. -PIES ja) ^ 
c=l 
SOD lg o. (12) 然后 , 基于 户 个 被 试 在 新 题 / 上 的 作答 向 量 忆 和 每 
gj; nj\ l-8; 个 被 试 属性 掌握 模式 的 后 验 分 布 , 假设 个 被 试 在 
— — Pine te a] JUS; 上 的 作答 彼此 独立 , 可 构建 对 数 边 际 似 然 函 
通过 代数 运算 可 it 8,-3,- o 1 于 EN 4 
2 数 如 下 : 
#1 不 同 q HST ER) gR, q) 的 计算 
4 向 量 掌握 组 非 掌 握 组 E(Rlq) 8 qj) 
届 性 掌握 模式 [100] [110] [101] [111] [000] [010] [001] [011] 
qr" =[100] UN H i = 0 0.690 
错误 作答 比 0 1 
届 性 掌握 模式 [011] [111] [000] [100] [010] [001] [110] [101] 
v 被 试 数目 njl4 3n/4 
ge" =[011] 0.690 0.003 
E 确 作答 比 0.500 0.500 
错误 作答 比 0.500 0.500 


China nA 4eE BAT 
ChinaXiv 合 作 期 刊 


第 11 期 TA 等 : 一 种 高 效 的 CD-CAT 在 线 标定 新 方法 : 基于 炉 的 信息 增益 与 EM 视角 1291 
L(q;,;,5;) = 指 作答 了 新 题 j 的 被 试 人 数 n; = (NxD)/m, HP, N 
S p MUS 为 参与 CD-CAT 的 被 试 总 人 数 , 为 每 个 被 试 作答 
2, 2, Posty (AMR BP) 8954) * 新 题 的 个 数 , m 为 待 标定 的 新 题 个 数 (Chen et al., 
((1—R;)log(l— P;(q;.8;+8;»@-)))] (16) 2015). y&ff SIE, SIE-R-BIC 和 RMSEA-N 方法 作 


M-step 的 目的 在 于 最 大 化 公式 (16) 以 估计 新 题 
7 的 失误 参数 wy 和 猜测 参数 go EM 算法 依次 迭代 
E-step 和 M-step 直到 满足 预先 设 定 的 收敛 标准 。 

上 述 两 个 部 分 为 IGEOCM 对 新 题 O 和 矩阵 和 项 
目 参 数 的 标定 ， 其 标定 新 题 的 具体 步骤 如 下 : 

步骤 1: 新 题 ¢ 向 量 估计 。 对 于 新 题 ) 基于 作 
答 了 新 题 j 的 被 试 的 属性 掌握 模式 估计 值 及 其 在 新 
题 上 的 作答 数据 , 计算 每 一 个 可 能 g 向 量 下 作答 
数据 集 R WAR ERIE ERa), 选择 最 小 E(Rj|g) 值 对 
应 的 g 向 量 作为 新 题 j 的 估计 4g 向 量 。 

步骤 2: 新 题 项 目 参 数 估计 。 将 步骤 1 中 的 估 
ib q EVE A Brel jf 的 真实 q 向 量 ， 基 于 作答 了 新 
题 j 的 被 试 的 属性 掌握 模式 后 验 分 布 及 其 在 新 题 j 
上 的 作答 , 使 用 EM 算法 估计 新 题 的 失误 参数 和 猜 
测 参 数 。 新 题 j 标定 完成 。 

步骤 3: 对 于 所 有 待 标定 的 其 他 新 题 , 重复 步 
又 1 和 步骤 2 可 获得 新 题 的 O 和 矩阵 估计 值 和 项 目 参 
数 (失误 参数 和 猜测 参数 ) 估 计 值 ， 直 到 所 有 新 题 标 
定 完成 。 

IGEOCM 是 基于 特征 选择 的 视角 提出 的 在 线 
标定 新 方法 。 该 方法 的 优点 在 于 仅 需 获得 被 试 的 属 
性 掌握 模式 估计 值 以 及 被 试 在 新 题 上 的 作答 便 能 
估计 新 题 的 O 和 矩阵， 是 一 种 非 参 数 化 的 方法 , 简单 
易 懂 晶 无 需 复杂 的 计算 。 此 外 , IGEOCM 将 基于 非 
参数 化 方法 估计 的 9 向 量 作为 新 题 的 真实 q 向 量 
接 标 定 新 题 的 项 目 参数 ,不 论 新 题 可 能 q 向量 的 多 
>, IGEOCM 均 只 需 估 计 一 个 已 确定 q 向 量 下 的 项 
目 参 数 ， 可 有 效 节约 项 目标 定 的 时 间 ， 改 善 新 题 标 
定 的 效率 。 这 不 同 于 SIE 方法 , 其 需 估 计 所 有 可 能 
q 向 量 下 的 项 目 参 数 , 标定 新 题 的 时 间 长 , 标定 新 
题 的 效率 低 。 


4 研究 1: IGEOCM 和 已 有 在 线 标 
定 方 法 性 能 及 其 精度 验证 
4.1 实验 设计 
研究 1 旨 在 考查 IGEOCM 在 不 同 标定 样本 (40、 
80, 120, 160, 200), 属性 掌握 模式 分 布 (均匀 分 布 、 
高 阶 分 布 、 多 元 正 态 分 布 ) 和 被 试 作答 新 题 个 数 D 
(4、6、8) 下 标定 新 题 的 效果 ,并 将 其 与 SIE, 
SIE-R-BIC 和 RMSEA-N 方法 进行 比较 。 标 定 样本 


为 比较 方法 ,主要 原因 在 于 其 新 题 标 定 精度 略 优 于 
JEA 方法 , 具有 一 定 的 代表 性 。 人 研究 1 为 四 因素 实 
验 设计 ， 共 5x3x3x4=180 种 模拟 实验 条 件 ， 每 种 实 
验 条 件 重复 实验 500 次 以 减少 随机 误差 。 
41.1 被 试 与 题库 模拟 

标定 样本 共 5 个 水 平 , n; = 40, 80, 120, 160 和 
200， 被 试 属性 掌握 模式 分 别 从 均匀 分 布 .高 阶 分 布 
和 多 元 正 态 分 布 MVNO, DYPE. 在 均匀 分 布 中 ， 
被 试 的 属性 掌握 模式 从 所 有 可 能 的 属性 掌握 模式 
中 以 均匀 的 概率 产生 ; 在 高 阶 分 布 中 , 被 试 i 是 否 
掌握 第 个 属性 与 被 试 i 的 一 般 潜 在 能 力 0, AK, 
能 力 为 0; 的 被 试 i 掌握 第 个 属性 的 概率 为 

Pol > EXP AiG — 406) 

1+ exp(A, (0; — hox)) 
其 中 ,hor A 4 为 结构 参数 , X7 0。 研 究 中 设置 天 = 
6, Ao = (-1, -0.6, -0.2, 0.2, 0.6, 1D)， 且 对 所 有 属性 大 
均 有 入 ix= 1.5, 被 试 i 的 能 力 值 从 WN (0, 1) 中 产生 (de 
la Torre & Chiu, 2016); 在 多 元 正 态 分 布 中 , 属性 间 
的 相关 设置 为 0.5 (J. Chen, 2017)。 

题库 模拟 包含 项 目 参数 (失误 参数 s 和 猜测 参 
数 g) 的 模拟 和 项 目 O 矩阵 的 模拟 。 题 库 中 共 包 合 
300 个 题目 , 每 个 题目 最 多 测量 3 个 属性 , 旦 题库 
中 测量 1、2 和 3 个 属性 的 项 目 均 设置 为 100 题 。 
测验 测量 属性 的 总 个 数 玉 = 6， 则 共有 63 种 可 能 的 
THA g 向 量 , 其 中 测量 1 个 属性 的 项 目 q 向 量 个 数 
为 6, 测量 2 个 属性 的 项 目 q 向 量 个 数 为 15, 测量 
三 个 属性 的 项 目 q 向 量 个 数 为 20。 将 测量 1 个 属性 
的 6 个 项 目 9 向 量 重复 16 次 并 从 其 中 额外 抽取 4 
个 项 目 gq 向量, 测量 2 个 属性 的 15 个 项 目 g 向 量 重 
复 6 次 并 从 其 中 额外 抽取 10 个 项 目 gq 向 量 , 测量 3 
个 属性 的 20 个 项 目 q 向 量 重复 5 次 , 构成 300x6 
的 临时 测验 O 和 矩阵, 最后， 对 临时 O 矩阵 中 的 所 有 
行 随机 排序 以 获得 最 后 的 O 和 矩阵。 每 一 个 项 目的 失 
误 参 数 s 和 猜测 参数 g 均 从 UU(0.05, 0.25) 中 随机 抽取 。 
4.1.2 ”新 题 模拟 

新 题 的 模拟 包括 新 题 失 误 参 数 s 和 猜测 参数 g 
的 模拟 以 及 新 题 O 矩阵 的 模拟 。 研究 中 , 令 需 标定 
的 新 题 个 数 m = 24， 因 此 新 题 的 O 和 矩阵 是 一 个 
24x6 的 和 矩阵。 新 题 测验 O 矩阵 及 其 失误 参数 Fil 
猜测 参数 g 的 模拟 均 与 题库 的 模拟 保持 一 致 。 
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4.1.3 CD-CAT 模拟 与 新 题 标定 

研究 使 用 定 长 的 终止 规则 ， 每 个 被 试 均 作 答 
20 个 旧 题 和 D 个 新 题 (D = 4, 6, 8 三 个 水 平 )。 
CD-CAT 的 模拟 过 程 如 下 : 

测验 开始 时 ,由 于 对 被 试 的 情况 一 无 所 知 ， 
此 (1) 随 机 从 题库 中 抽取 一 个 项 目 作为 被 试 的 初始 
作答 项 目 ; (2) 模 拟 当 前 被 试 在 项 目 上 的 作答 ,并 通 
过 被 试 在 已 作答 项 目 上 的 作答 使 用 MLE 估计 被 试 
的 属性 掌握 模式 ; (3) 使 用 后 验 加 权 KL (Posterior- 
Weighted Kullback-Leibler, PWKL; Cheng, 2009) 选 
题 策 略 从 剩余 题库 中 挑选 最 适合 被 试 当前 属性 掌握 
模式 估计 值 的 项 目 作 为 被 试 的 下 一 个 作答 项 目 。 重 
复 步 又 (2) 和 (3) 直 到 测验 长 度 达 到 预先 指定 的 标准 。 

在 CD-CAT 模拟 过 程 中 ,随机 从 待 标定 的 24 
个 新 题 中 抽取 D 个 新 题 并 将 其 置 于 被 试 测验 过 程 
的 随机 位 置 。CD-CAT 测验 结束 后 ， 基 于 被 试 的 属 
性 掌握 模式 估计 值 ， 属 性 掌握 模式 后 验 分 布 及 被 试 
在 新 题 上 的 作答 , 分 别 使 用 IGEOCM 、SIE 、 
SIE-R-BIC 和 RMSEA-N 方法 标定 新 题 的 2 矩阵 和 


项 目 参数 。 
4.1.4 评价 标准 


属性 向 量 正 确 估计 率 (Attribute Vector Correct 
Estimation Rate, AVCER) AVCER 用 于 评估 新 题 O 
和 矩阵 的 估计 正确 率 ,， 其 表达 式 为 : 


m 


1 500 
X00 =a (18) 


500x m £41 


HP, rR 500 次 重复 模拟 实验 中 的 第 了 次 重复 实 
验 ，2 包 表示 第 > 次 重复 模拟 中 新 题 7 的 4 向 量 估计 


AVCER = 


m 


0.950 
g 0850 
E 0.750 
E 0.650 
M 0.550 
3H 

EZ 0.450 
& 0.350 
E 

Z 0250 


0.150 


lli, RRI W q HEEL. 1G? =q) 为 指示 
性 函数 ,用 于 评估 第 x 次 重复 模拟 中 34) 是 否 等 于 
qj, AVCER ERK, HA 2 矩阵 估计 正确 率 越 高 。 

均 方 根 误差 (Root Mean Squared Error, RMSE) 
RMSE 指标 用 于 评价 新 题 项 目 参数 的 估计 正确 性 ， 


其 表达 式 可 写 为 : 
RMSE = 
1 500 1 m a(r) 2 m a(n) 2)\, 
Ese enr] e 


ERP, 3 m eO 分 别 表示 第 次 重复 模拟 中 ,新 
I 的 失误 参数 s 和 猜测 参数 g 佑 计 值 , s; 和 gj 分 别 
PNA) 的 失误 参数 s 和 猜测 参数 g 真 值 .RMSE 
值 越 小 , 项 目 参 数 的 估计 精度 越 高 。 

标定 效率 : 即 平均 运行 时 间 (Average Running 
Time, ART) ART 用 于 评估 各 在 线 标定 方法 的 标定 
A, 其 计算 如 下 : 


500 


2 
ART ==, (20) 
500 


RB, t, 表 示 第 + 次 重复 模拟 中 ,各 在 线 标定 方法 标 
定 新 题 所 用 的 时 间 。ART 值 越 小 ,用 于 标定 新 题 的 
方法 的 效率 越 高 。 

42 ”实验 结果 

图 1、 表 2 和 图 2 分 别 呈 现 了 标定 方法 SIE, 

SIE-R-BIC、RMSEA-N 和 IGEOCM 的 项 目标 定 精 
度 以 及 标定 效率 结果 ,根据 Chen 等 人 (2015) 的 研究 ， 
两 方法 间 标 定 精度 的 差 值 大 于 等 于 1% 表 明 一 种 方 
法 优 于 男 一 种 方法 。 总 体 而 言 , IGEOCM 具有 较 好 


高 阶 分 布 


—E—SIE —A—SIERBIC —*—RMSEA-N —e—IGEOCM 
图 1 各 在 线 标定 方法 在 不 同 条 件 下 的 AVCER (属性 向 量 估计 正确 率 ) 结 果 
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表 2 各 在 线 标定 方法 在 不 同 条 件 下 的 RMSE ( 均 方 根 误差 ) 结 果 
分 布 项 目 方法 40 80 120 160 200 
SIE 0.090 0.060 0.048 0.041 0.036 
SIE-R-BIC 0.088 0.065 0.057 0.052 0.049 
k RMSEA-N 0.132 0.099 0.086 0.079 0.073 
IGEOCM 0.090 0.060 0.048 0.041 0.036 
SIE 0.092 0.061 0.049 0.041 0.037 
高 阶 , SIE-R-BIC 0.089 0.066 0.057 0.053 0.050 
RMSEA-N 0.132 0.099 0.085 0.077 0.074 
IGEOCM 0.092 0.061 0.049 0.041 0.037 
SIE 0.095 0.060 0.048 0.042 0.037 
SIE-R-BIC 0.090 0.066 0.057 0.053 0.050 
i RMSEA-N 0.132 0.098 0.085 0.078 0.074 
IGEOCM 0.095 0.061 0.048 0.042 0.037 
SIE 0.123 0.071 0.055 0.046 0.041 
SIE-R-BIC 0.097 0.068 0.057 0.051 0.047 
4 RMSEA-N 0.118 0.090 0.082 0.078 0.076 
IGEOCM 0.121 0.071 0.055 0.046 0.041 
SIE 0.121 0.069 0.053 0.045 0.039 
35^ n SIE-R-BIC 0.097 0.068 0.056 0.050 0.046 
RMSEA-N 0.116 0.090 0.081 0.078 0.076 
IGEOCM 0.119 0.069 0.053 0.045 0.039 
SIE 0.122 0.071 0.054 0.046 0.040 
: SIE-R-BIC 0.097 0.068 0.057 0.051 0.047 
RMSEA-N 0.116 0.090 0.082 0.078 0.076 
IGEOCM 0.121 0.071 0.054 0.046 0.040 
SIE 0.126 0.076 0.059 0.049 0.044 
" SIE-R-BIC 0.099 0.073 0.064 0.058 0.055 
RMSEA-N 0.170 0.149 0.138 0.130 0.123 
IGEOCM 0.126 0.076 0.059 0.049 0.044 
SIE 0.124 0.076 0.059 0.050 0.044 
ER : SIE-R-BIC 0.098 0.073 0.064 0.058 0.055 
RMSEA-N 0.171 0.149 0.138 0.129 0.125 
IGEOCM 0.123 0.076 0.059 0.050 0.044 
SIE 0.129 0.079 0.059 0.049 0.044 
i SIE-R-BIC 0.100 0.074 0.063 0.058 0.055 
RMSEA-N 0.170 0.149 0.136 0.128 0.121 
IGEOCM 0.130 0.079 0.060 0.050 0.044 


的 项 目标 定 精 度 和 估计 效率 ， 其 性 能 整体 上 优 于 
SIE, SIE-R-BIC 和 RMSEA-N 方法 。 由 图 1 可 知 ， 
IGEOCM 的 O 矩阵 估计 正确 率 高 于 其 它 三 种 方法 ， 
属性 掌握 模式 为 高 阶 分 布 和 正 态 分 布 时 ,各 方法 间 
的 差异 更 为 明显 。 如 在 属性 掌握 模式 为 均匀 分 布 时 ， 
SIE 方 法 和 IGEOCM 间 的 最 大 AVCER 差 值 为 2.3%， 
而 在 属性 掌握 模式 为 高 阶 分 布 和 正 态 分 布 时 ， 两 方 
法 间 的 最 大 AVCER 差 值 分 别 高 达 6.8% 和 9.1%。 

SIE 和 SIE-R-BIC 方法 的 2 矩阵 标定 精度 在 各 条 件 


下 均 较 为 接近 ,而 RMSEA-N 方法 在 高 阶 分 布 和 正 
态 分 布下 的 0O 和 矩阵 标定 正确 率 低 于 SIE 和 SIE-R-BIC 
方法 ,在 属性 掌握 模式 分 布 对 O 矩阵 标定 精度 的 影 
m E, SIE、SIE-R-BIC、RMSEA-N fll IGEOCM 的 
Q 和 矩阵 估计 正 确 率 在 属性 掌握 模式 为 均匀 分 布 时 
最 好 ， 高 阶 分 布 时 次 之 , 正 态 分 布 时 最 差 。 例 如 ， 
IGEOCM 在 均匀 、 高 阶 和 正 态 分 布下 的 O 矩阵 估 
计 正 确 率 范围 分 别 为 80.9%~99.8%，67.0%~97.3% 
和 46.0%~76.7%; 而 SIE 方法 在 均匀 、 高 阶 和 正 态 
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ART (平均 运行 时 间 ) 
N 
3 


—E—SIE ”一 上 一 SIE-R-BIC —— RMSEA-N —e—IGEOCM 
图 2 各 在 线 标定 方法 在 不 同 条 件 下 的 ART (平均 运行 时 间 ) 结 果 ( 单 位 : 秒 ) 


分 布下 的 O 矩阵 估计 正确 率 范 围 分 别 为 79.0%~ 
99.8%, 60.7%~96.9% 和 38.4%~68.3%。 标 定 样本 对 
各 在 线 标定 方法 的 0O 和 矩阵 估计 正确 率 影 响 较 大 ， 标 


0.093、0.088 和 0.142。 各 方法 的 项 目 参 数 标定 精度 
随 标 定 样本 的 增加 而 提升 ,如 ,标定 样本 nj = 40 时 ， 
SIE 方 法 和 IGEOCM 的 平均 RMSE 值 均 为 0.11, 而 


定 样本 越 大 ,各 方法 的 2 矩阵 估计 正确 率 越 高 。 当 
标定 样本 n; = 40 时 , SIE、SIE-R-BIC、RMSEA-N 
All IGEOCM 的 平均 AVCER 值 分 别 为 59.6% 、60.0%、 
45.6% 和 65.1%， 而 当 标 定 样本 n= 200 时 , 4 种 方法 
的 平均 AVCER 值 上 升 到 88.1%、88.2%、77.2% 和 
91.2%。 因 此 , 增加 标定 样本 可 提高 各 在 线 标定 方 
法 的 O FEM TH HIE W428. SIE .SIE-R-BIC .RMSEA-N 
和 IGEOCM 方法 在 被 试 作答 新 题 个 数 为 4、6 和 8 
的 情况 下 均 具有 相近 的 2 矩阵 估计 正确 率 。 

K 2 JJ SIE SIE-R-BIC .RMSEA-N 和 IGEOCM 
的 项 目 参 数 标定 结果 ,SIE 方法 和 IGEOCM 在 项 目 
参数 标定 精度 上 具有 相似 的 性 能 ， 其 最 大 RMSE 差 
值 不 超过 0.296, 大 多 数 实验 条 件 下 两 方法 的 
RMSE 值 相 等 。SIE-R-BIC 方法 的 RMSE 值 在 标定 
样本 较 少 时 略 低 于 SIE 方法 和 IGEOCM (如 , n; = 
40),， 在 标定 样本 较 多 时 略 高 于 SIE 方法 和 IGEOCM 
(如 , n; = 200); RMSEA-N 方法 的 RMSE 值 在 多 数 条 
件 下 都 高 于 SIE、SIE-R-BIC 和 IGEOCM。 在 属性 
掌握 模式 分 布 对 项 目 参 数 标定 精度 的 影响 上 , SIE, 
SIE-R-BIC fll IGEOCM 的 项 目 参数 标定 精度 在 属性 
掌握 模式 为 高 阶 分 布 时 最 好 ， 而 RMSEA-N 的 项 目 
参数 标定 精度 在 属性 掌握 模式 为 均匀 分 布 时 最 好 。 
如 IGEOCM 在 高 阶 、 均 匀 和 正 态 分 布下 的 平均 
RMSE 值 分 别 为 0.056, 0.066 和 0.071, RMSEA-N 
在 高 阶 .均匀 和 正 态 分 布下 的 平均 RMSE 值 分 别 为 


当 标 定 样本 n; = 200 时 ， 两 方法 的 平均 RMSE 值 均 
减少 为 0.04。 与 O 矩阵 标定 精度 一 致 ， 被 试 作答 甫 
题 个 数 对 SIE, SIE-R-BIC, RMSEA-N 和 IGEOCM 
方法 项 目 参 数 标定 精度 的 影响 可 忽略 不 计 。 

图 2 为 使 用 SIE, SIE-R-BIC, RMSEA-N 和 
IGEOCM 方法 估计 24 个 新 题 的 平均 运行 时 间 。 各 
模拟 条 件 下 , 4 种 在 线 标定 方法 均 使 用 R4.0 运行 ， 
其 计算 机 配置 相同 (如 Intel Core i5-8400 2.81GHz, 
内 存 20G)， 因 此 各 标定 方法 的 估计 效率 具有 可 比 
性 。 由 图 2 结果 可 知 ,， 相 比 于 IGEOCM, SIE, 
SIE-R-BIC 和 RMSEA-N 方法 的 估计 效率 更 低 , 其 
所 有 条 件 下 的 平均 ART 值 约 为 IGEOCM 的 49 倍 。 
属性 掌握 模式 分 布 与 被 试 作答 新 题 个 数 对 SIE, 
SIE-R-BIC、RMSEA-N 和 IGEOCM 的 估计 效率 影 
响 较 小 。 此 外 ，SIE 、SIE-R-BIC 、RMSEA-N 和 
IGEOCM 的 平均 运行 时 间 均 随 标定 样本 的 增加 而 
延长 。 当 标定 样本 n; = 40 Hf, SIE, SIE-R-BIC, 
RMSEA-N 和 IGEOCM 的 平均 ART 值 分 别 为 
106.22、93.38、61.39 和 1.74， 而 当 标 定 样本 n; = 200 
时 , 4 种 方法 的 平均 ART 值 延长 至 414.71、322.40、 
286.06 和 6.91. 


5 ”人 研究 2: 选 题 策略 对 IGEOCM 和 
己 有 在 线 标定 方法 性 能 的 影响 


IGEOCM, SIE, SIE-R-BIC 和 RMSEA-N 方法 
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均 基于 CD-CAT 测验 中 被 试 属 性 掌握 模式 和 属性 
掌握 模式 后 验 分 布 的 估计 值 以 及 被 试 在 新 题 上 的 
作答 来 标定 新 题 ， 被 试 属性 掌握 模式 及 属性 掌握 模 
式 后 验 分 布 的 估计 精度 影响 各 在 线 标定 方法 的 标 
定 精 度 (Chen et al., 2015), Tij CD-CAT F, 选 题 策 
略 是 影响 被 试 属性 掌握 模式 估计 精度 的 重要 因素 
之 一 。 因 此 , 研究 2 在 研究 1 的 基础 上 ,进一步 考 
察 选 题 策略 对 各 在 线 标定 方法 性 能 的 影响 。 

5.1 实验 设计 


SIE 和 IGEOCM 方法 的 2 和 矩阵 估计 正确 率 在 属性 
掌握 模式 为 均匀 分 布 时 最 好 ,高 阶 分 布 时 次 之 , IE 
态 分 布 时 最 差 。 

CD-CAT 选 题 策略 对 在 线 标定 方法 的 新 题 O 算 
阵 标定 精度 有 一 定 影响 。 如 属性 掌握 模式 为 高 阶 分 
布 的 情况 下 ，SIE 方法 在 选 题 策略 为 MPWKL 时 具 
有 较 高 的 O 矩阵 标定 精度 ,其 AVCER 值 为 61.7%; 
SIE 方 法 在 选 题 策略 为 PWKL 时 具有 较 低 的 O 和 矩阵 
标定 精度 ,其 AVECR 值 为 60.7%。 在 属性 掌握 模 


T 


研究 2 的 实验 设计 和 模拟 过 程 与 研究 1 基本 一 
致 ,但 研究 2 在 研究 1 的 基础 上 新 增 了 MPWKL (the 
modified PWKL). GDI (the generalized deterministic 
inputs, noisy and gate (G-DINA) model discrimination 
index) FU # K Hi (Shannon entropy，SHE) 选 题 策略 
(Cheng, 2009; Kaplan et al., 2015)， 以 比较 IGEOCM 
和 SIE 方法 在 不 同 选 题 策 略 下 的 可 行 性 和 准确 性 。 
由 于 SIE fll SIE-R-BIC 方法 的 项 目标 定 精度 略 高 于 
RMSEA-N 方法 , 且 SIE 方法 的 项 目 参数 标定 精度 
在 多 数 条 件 下 均 略 高 于 SIE-R-BIC 和 RMSEA-N 方 


式 为 正 态 分 布 的 情况 下 , IGEOCM 方法 在 选 题 策 略 
为 GDI 时 具有 较 高 的 O 矩阵 标定 精度 ,其 AVCER 
值 为 46.7%; IGEOCM 方法 在 选 题 策略 为 PWKL 时 
具有 较 低 的 2 德 阵 标定 精度 , 其 AVECR 值 为 45.4%。 
CD-CAT 选 题 策略 对 新 题 项 目 参 数 和 估计 效率 的 影 
响 可 忽略 不 计 。 各 选 题 策略 下 的 RMSE 均值 之 差 不 
超过 0.2%, 平均 运行 时 间 (ART) 较 为 接近 。 


6 ”总结 与 讨论 


CD-CAT 中 同时 标定 新 题 O 和 矩阵 和 项 目 参 数 的 


法 。 另 外 , 三 者 在 标定 效率 上 差异 较 小 , 均 耗 时 较 
长 (ART 比值 不 超过 1 倍 )， 因 此 研究 2 中 仅 选择 已 
有 方法 SIE 作为 新 方法 IGEOCM 的 比较 方法 。 此 
外 ,基于 研究 1 的 结果 ,被 试 新 题 作 答 个 数 对 SIE 
方法 和 IGEOCM 项 目标 定 精度 的 影响 较 小 ,研究 2 
中 将 被 试 作 答 新 题 的 个 数 固定 为 6(D = 6)。 考虑 到 
SIE 方 法 和 IGEOCM 的 运行 时 间 随 标定 样本 的 增加 
而 延长 ， 因 此 研究 2 中 将 标定 样本 固定 为 40 以 缩短 
实验 时 长 。 其 余 实验 条 件 和 模拟 过 程 请 参见 研究 1。 
5.2 ”实验 结果 

表 3 为 SIE 方法 和 IGEOCM 在 不 同 选 题 策略 
和 不 同属 性 掌握 模式 分 布下 的 项 目标 定 精度 与 标 
定 效率 结果 。 与 研究 1 结果 相似 ， 相 比 于 SIE 方法 ， 
IGEOCM 在 各 选 题 策略 下 均 具 有 更 高 的 项 目标 定 
精度 和 项 目 估 计 效 率 。 此 外 ,在 所 有 选 题 策 略 下 ， 


在 线 标定 方法 较 少 ， 且 均 为 参数 化 的 方法 , 标定 新 
题 的 时 间 较 长 ,标定 效率 较 低 。 因 此 ,人 研究 借鉴 数 
据 挖 气 中 特征 选择 (Feature Selectiom) 的 思路 ， 提 出 
了 基于 炉 的 信息 增益 的 在 线 标定 方法 (IGEOCM)， 
以 期 为 CD-CAT 题库 中 项 目的 增补 提供 一 种 更 为 
高 效 、 准 确 的 方法 。 不 同 于 CD-CAT 中 已 有 的 在 线 
标定 方法 , IGEOCM 使 用 非 参 数 的 方法 标定 新 题 的 
O 和 矩阵， 较为 有 效 地 避免 了 项 目 参数 估计 偏差 所 带 
来 的 影响 , 改善 了 项 目标 定 的 精度 ， 同 时 提高 了 项 
目标 定 的 效率 。 随 后 , 使 用 Monte Carlo 模拟 研究 
来 验证 IGEOCM 的 可 行 性 和 准确 性 ， 并 将 其 与 已 
有 在 线 标定 方法 SIE, SIE-R-BIC 和 RMSEA-N 进 
行 比 较 。 研 究 结果 表明 : (1) IGEOCM 在 各 条 件 下 
均 具 有 较 好 的 项 目标 定 精度 和 项 目 估 计 效 率 ,日 整 
体 上 优 于 SIE, SIE-R-BIC 和 RMSEA-N 方法 。SIE 


表 3 SIE 方法 和 IGEOCM 在 不 同 条 件 下 的 项 目标 定 精度 与 标定 效率 结果 


分 布 方法 AVCER RMSE ART 
PWKL MPWKL SHE GDI PWKL MPWKL SHE GDI PWKL MPWKL SHE GDI 
di SIE 0.607 0.617 0.615 0.614 0.082 0.083 0.083 0.083 78.438 78.083 78.116 77.818 
di IGEOCM 0.678 0.677 0.676 0.679 0.082 0.084 0.082 0.083 1.808 1.811 1.800 ETOT 
Mr SIE 0.809 0.807 0.814 0.808 0.089 0.090 0.090 0.089 90.388 89.742 90.421 89.702 
IGEOCM 0.828 0.827 0.831 0.825 0.089 0.090 0.090 0.089 1.861 1.846 1.857 1.845 
er? SIE 0.385 0.383 0.383 0.384 0.099 0.099 0.100 0.099 81.850 81.420 81.752 81.587 
IGEOCM 0.454 0.462 0.457 0.467 0.099 0.099 0.099 0.099 1.884 1.865 1.873 1.880 
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等 方法 基于 新 题 项 目 参 数 的 估计 值 来 估计 新 题 0 
矩阵, 项目 参数 的 估计 误差 影响 新 题 2 抢 阵 的 标定 
精度 ,继而 降低 新 题 标定 精度 ; 而 IGEOCM 基于 被 
试 属性 掌握 模式 及 其 在 新 题 上 的 作答 直接 标定 新 
BL 0 和 矩阵, Brel 0 和 矩 阵 的 标定 与 项 目 参 数 的 估计 精 
度 无 关 ， 额 外 影响 因素 少 ， 新 题 标定 精度 更 高 一 
些 。 此 外 ,尽管 SIE 和 IGEOCM 项 目 参数 估计 方法 
一 致 , 但 SIE 方法 使 用 参数 化 方法 标定 新 题 0 矩阵， 
而 IGEOCM 方法 使 用 非 参数 化 方法 标定 新 题 O FE 
Me, 相 比 参数 化 方法 ， 非 参数 化 方法 计算 更 为 简单 ， 
运行 时 间 更 短 (Chiu et al., 2018)， 因 此 IGEOCM 的 
新 题 标定 效率 较 好 一 些 。(2) SIE 、SIE-R-BIC 、 
RMSEA-N 和 IGEOCM 的 项 目标 定 精 度 随 标 定 样本 
的 增加 而 提高 ,4 种 方法 的 运行 时 间 随 标定 样本 的 
增加 而 延长 。(3) SIE、SIE-R-BIC、RMSEA-N 和 
IGEOCM 在 属性 掌握 模式 分 布 为 均匀 分 布 和 高 阶 
分 布 时 的 项 目标 定 精 度 高 于 正 态 分 布 。(4) 被 试 作答 
新 题 个 数 对 SIE .SIE-R-BIC .RMSEA-N 和 IGEOCM 
项 目标 定 精度 和 估计 效率 的 影响 较 小 。(5) CD-CAT 
中 选 题 策略 影响 SIE 方法 和 IGEOCM 的 O 矩阵 标 
定 精 度 。 在 属性 掌握 模式 为 高 阶 和 正 态 分 布 时 ， 相 
HE PWKL 选 题 策略 , SIE 方法 和 IGEOCM 在 选 题 策 
略 分 别 为 MPWKL 和 GDI 时 的 O 和 矩阵 标定 精度 略 
高 。 此 外 ,研究 还 考察 了 属性 掌握 模式 为 高 阶 分 布 
时 不 同 的 和 ox 和 和 i 模拟 方式 对 SIE 方法 和 IGEOCM 
的 影响 ， 即 Aor 从 标准 正 态 中 产生 和 和 ii 从 对 数 标 准 
正 态 分 布 中 产生 , 在 被 试 作答 新 题 个 数 固定 为 6， 
其 余 条 件 与 研究 1 相同 的 情况 下 : IGEOCM 在 该 模 
拟 方式 下 仍 优 于 SIE 方法 。 该 结果 进一步 表明 
IGEOCM 的 可 行 性 及 其 优势 (具体 数据 结果 参见 网 
络 版 附 表 1). 

当然 , 研究 仍 有 许多 不 足 之 处 , 今后 研究 中 需 
加 以 改进 与 完善 。 首 先 , 文中 仅 验 证 了 所 提出 
IGEOCM 在 DINA 模型 下 的 性 能 ， 其 在 较为 复杂 的 
认 知 诊断 模型 如 缩减 重新 参数 化 融合 模型 (the 
Reduced Reparametrized Unified Model, RRUM; 
Hartz, 2002), 拓 广 DINA (the Generalized Deterministic 
Inputs, Noisy and Gate Model, G-DINA; de la Torre, 
2011) 等 模型 下 的 性 能 仍 有 待 进一步 探讨 。 不 同 于 
DINA 模型 ， 其 仅 将 被 试 分 为 掌握 与 非 掌握 两 个 类 
别 。 在 更 为 复杂 的 模型 下 ， 基 于 被 试 属性 掌握 模式 
和 项 目 q 向 量 可 以 将 被 试 划分 为 更 多 不 同 的 类 别 ， 
而 基于 焙 的 信息 增益 指标 会 随 着 被 试 所 划分 类 别 
的 增加 而 增加 ， 因 此 在 更 为 复杂 的 认 知 诊断 模型 下 


使 用 基于 炉 的 信息 增益 指标 来 标定 新 题 q 向 量 的 效 
果 值 得 探讨 。 未 来 研究 中 可 考虑 如 何 解 决 被 试 类 别 
数量 对 IGEOCM 的 影响 ,如 对 被 试 类 别 数 进行 惩 
罚 以 减少 类 别 个 数 对 IGEOCM 的 影响 。 

其 次 , CD-CAT 中 已 有 的 在 线 标定 方法 均 是 基 
于 二 级 计 分 模型 。 实 际 上 , 心理 与 教育 评估 中 存在 
大 量 的 多 级 计 分 数据 以 及 多 级 计 分 题目 ， 且 相 比 于 
二 级 计 分 的 作答 数据 ， 多 级 计 分 的 作答 数据 可 为 被 
试 提供 更 为 全 面 详尽 的 诊断 信息 。 文 中 所 提出 的 在 
线 标 定 方 法 应 如 何 推广 到 系列 G-DINA 模型 
(sequential G-DINA model; Ma & de la Torre, 2016) 
等 多 级 计 分 模型 之 中 ,并 验证 其 在 多 级 计 分 模型 下 
的 性 能 有 待 进一步 研究 。 

再 次 , 研究 为 每 个 被 试 随 机 选择 新 题 , 用 于 标 
定 每 个 新 题 的 被 斌 可 能 并 非 最 合适 的 被 试 。 未 来 研 
究 中 可 考虑 使 用 自 适应 的 方法 来 为 每 个 项 目 选 择 
最 合适 的 被 试 ， 比 如 使 用 最 优 设计 准则 来 为 每 个 项 
目 选择 最 佳 被 试 (He et al., 2020)。 然 后 考察 不 同 的 
新 题 选 择 方式 (随机 选择 和 自 适 应 选择 ) 对 在 线 标定 
方法 的 影响 。 

最 后 ， 研 究 假设 测验 所 测量 的 属性 之 间 相 互 独 
立 。 然 而 , 在 实际 的 诊断 测验 中 ， 属 性 之 间 可 能 存 
在 各 种 层级 关系 ， 比 如 无 结构 型 、 线 型 、 分 支 型 和 
Wes HY (Leighton et al., 2004)。 因 此 , 未 来 研究 一 个 
可 考虑 的 方向 是 探讨 不 同属 性 层级 关系 对 在 线 标 
定 方 法 的 影响 。 男 外 ,人 研究 使 用 模拟 实验 验证 所 提 
出 的 o 和 矩阵 与 项 目 参 数 在 线 标定 方法 的 科学 性 与 
合理 性 ， 虽 然 模 拟 研 究 的 结果 能 为 实践 应 用 提供 一 
定 指导 ,但 模拟 研究 是 在 理想 的 情境 下 进行 ,会 馆 
略 很 多 真实 情境 中 的 影响 因素 ， 因 此 未 来 研究 需 进 
一 步 评 估 真 实情 境 中 各 在 线 标定 方法 的 性 能 .总 之 ， 
CD-CAT 中 同时 标定 新 题 2 和 矩阵 与 项 目 参数 的 在 线 
标定 方法 仍 需 进一步 的 研究 。 
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Abstract 

Cognitive diagnostic computerized adaptive testing (CD-CAT) includes the advantages of both cognitive 
diagnosis (CD) and computerized adaptive testing (CAT), which can offer detailed diagnosis feedback for each 
examinee by applying fewer test items and time. It has been a promising field. An item bank is a prerequisite for 
the implementation of CD-CAT. However, its maintenance is a very challenging task. One of the effective ways 
to maintain the item bank is online calibration. Till now, there are only a few online calibration methods in the 
CD-CAT context that can calibrate Q-matrix and item parameters simultaneously. Moreover, the computational 
efficiency of these methods needs to be further improved. Therefore, it is crucial to find more online calibration 
methods that jointly calibrate the Q-matrix and item parameters. 

Inspired by the SIE (Single-Item Estimation) method proposed by Chen et al. (2015) and information gain 
feature selection criteria in feature selection, an information gain of entropy-based online calibration method 
(IGEOCM) was proposed in this study. The proposed method can jointly calibrate Q-matrix and item parameters 
in a sequential manner. The calibration process of the new items was described as follows: First, for the new 
item j, the q-vector can be calibrated by maximizing the information gain of entropy-based on the basis of the 
attribute patterns of examinees and the examinees' responses to item j. Second, the item parameters of the new 
item j are estimated by the EM algorithm based on the posterior distribution of examinees' attribute pattern, the 
examinees' responses to item j, and the q-vector estimated in the first step. The first and second step are repeated 
for all other new items to obtain their estimated Q-matrix and item parameters item by item. Two simulation 
studies were conducted to examine whether the IGEOCM could accurately and efficiently calibrate the Q-matrix 
and item parameters of the new items under different calibration sample sizes (40, 80, 120, 160, and 200), 
different attribute pattern distributions (uniform distribution, higher-order distribution, and multivariate normal 
distribution), the different number of new items answered by examinee (4, 6, and 8), and different item selection 
algorithms (posterior-weighted Kullback-Leibler, PWKL; the modified PWKL, MPWKL; the generalized 
deterministic inputs, noisy and gate model discrimination index, GDI; and Shannon entropy, SHE). Furthermore, 
the performance of the proposed method was compared with the SIE, SIE-R-BIC, and RMSEA-N methods. 

The results indicated that (1) The IGEOCM worked well in terms of the calibration accuracy and estimation 
efficiency under all conditions, and outperformed the SIE, SIE-R-BIC, and RMSEA-N methods overall. (2) The 
accuracy of the item calibration increases as the sample size increases for all calibration methods under all 
conditions. (3) The SIE, SIE-R-BIC, RMSEA-N, and IGEOCM performed better under the uniform distribution 
and higher-order distribution than under the multivariate normal distribution. (4) The number of new items 
answered by the examinee had a negligible impact on the calibration accuracy and computation efficiency of the 
SIE, SIE-R-BIC, RMSEA-N, and IGEOCM. (5) The item selection algorithm in CD-CAT affects the Q-matrix 
calibration accuracy of the SIE and IGEOCM methods. Under the higher-order distribution and multivariate 
normal distribution, the SIE method and IGEOCM had higher Q-matrix calibration accuracy when the item 
selection algorithms were MPWKL and GDI. 

On the whole, although the proposed IGEOCM is competitive and outperforms the conventional method 
irrespective of the calibration precision or computational efficiency, the studies on the online calibration method 
in CD-CAT still need to be further deepened and expanded. 

Key words cognitive diagnostic computerized adaptive testing, item replenishing, online calibration, Q-matrix, 
information gain of entropy 
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附录 : 


【 例 1): 假设 被 试 的 属性 掌握 模式 已 知 且 时 均 匀 分 布 , 被 试 在 新 题 7 上 的 作答 不 存在 失误 和 猜测 。 值 
得 注意 的 是 ， 由 于 作答 新 题 j 的 被 试 人 数 nj 以 及 每 个 被 试 在 新 题 ;} 上 的 作答 在 所 有 可 能 的 q 向 量 下 都 是 固 
定 不 变 的 , 炉 的 信息 增益 ge(Rj, 9)) 中 作答 数据 集 R REL E(Rj) 在 所 有 可 能 gq 向 量 下 都 相等 ， 其 大 小 完全 取 
决 于 条 件 E(Rjlq) 的 大 小 。 因 此 ， 本 例 中 主要 通过 描述 不 同 g mph PORTTA E(Rjlq)) 的 改变 来 说 明 不 同 q 
[5] E RA OY Ze gR, q)) 的 改变 。 令 测 验 测量 的 属性 个 数 = 3, WIA 2*= 8 种 可 能 的 属性 掌握 模式 ， 
每 一 种 属性 掌握 模式 的 期 望 人 数 为 n/8。 若 新 题 j 的 正确 q 向 量 为 gq” = [1 0 0], 对 于 DINA 模型 ， 则 属 
性 掌握 模式 为 [100]、[1 10]、[1 0 1] 和 [1 1 1] 的 被 试 将 被 划分 为 掌握 组 (hh), 而 属性 掌握 模式 为 [0 0 0]、[0 
10]、[00 1] 和 [0 131] 的 被 试 将 被 划分 为 非 掌握 组 (ao0)。 由 于 被 试 的 属性 掌握 模式 为 均匀 分 布 ， 掌 握 组 h 和 
非 掌握 组 ho PHY BRA BOY A n2 (ny, = ng, -4xnjf8- n2) o Z hi PERED H j 上 作答 错误 和 作答 正 
确 的 人 数 分 别 为 nao 和 nm, ho 中 被 试 在 项 目 ; 上 作答 错误 和 作答 正确 的 人 数 分 别 为 noo 和 nos DU] 
Nin ngo ng A jn, = nj +A o 将 如 中 每 种 属性 掌握 模式 的 被 试 在 项 目 j 上 作答 错误 的 人 数 分 别 标记 
H Fi, Fass, Fa, 加 中 每 种 属性 掌握 模式 的 被 试 在 项 目 上 作答 正确 的 人 数 分 别 标记 为 Ti, Tos, Tao BU] 
gue La, Ale 


nj 


Nih 


n. 


g ont a AU BE eB 
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基于 被 试 在 新 题 ;上 的 作答 不 存在 失误 和 猜测 这 一 假设 , 掌握 组 n. 中 每 种 属性 掌握 模式 下 的 被 试 在 新 题 j 
上 答 错 的 期 望 人 数 为 0， 即 ECP) = E(F2) =…= EC = 0; 非 掌 握 组 h 中 每 种 属性 掌握 模式 下 的 被 试 在 新 题 
7 上 答对 的 期 望 人 数 也 为 0， 即 ET) = ET) =…= ET =0。 且 在 被 试 在 新 题 ) 上 的 作答 不 存在 失误 和 猜测 


的 情况 下 ， vit oS oT | (Chiu et al., 2018). WA, 


T ih, P ih N ih N ih 

1 n; 2x4x0 n; nj 

M n 10 XX 11 10 

> = =0, 一 一 =1- 一 =1. 
q Pih ny T jh T jh, 

Le nior 2x4x0 72.700 N01 

— as =, l= = 1. 
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然后 ECRig RIETI 
corres Nin || No nj nj jy Ty || "joo A 500 joi Dh ji 
ER, [g 77 ^ I log + log + log + log = 
= nj (jh "jh Pin "jh nj (Piw — lj Pin jhy ! 
1 1 
EC xlog0)- (1xlog ni| + EC xlog0)+ (1xlog ni| =0 


若 新 题 j 的 gq 向 量 错误 gi" = [0 1 1], 则 属性 掌握 模式 为 [0 1 1] 和 [1 1 1] 的 被 试 将 被 划分 为 加 ,而 属 
性 掌握 模式 为 [00 0]、[100]、 [010]、[001]、[110] 和 [101] 的 被 试 则 将 被 划分 为 hoo hi P ho PAIAR 
人 数 分 别 为 nj/4 (ny, =2xnj/8=nj/4)) 和 3nj/4 (nj, =6xnj/8=3n;/4))。 此 时 ,错误 的 q 向 量 将 原本 在 新 题 
j 上 作答 正确 的 掌握 组 被 试 错误 地 分 人 非 掌 握 组 ， 被 错 分 人 非 掌 握 组 的 被 试 的 属性 掌握 模式 为 [L 0 0]、[1 1 
0] 和 [1 0 1]， 这 些 模 式 的 被 试 在 新 题 / 上 作答 正确 的 期 望 人 数 为 ET) = E(Ts) = ET) = nj8; 而 将 原本 在 新 
题 上 作答 错误 的 非 掌 握 组 被 试 错误 地 分 人 掌握 组 ,被 错 分 人 掌握 组 的 被 试 的 属性 掌握 模式 为 [0 1 1], 该 
模式 中 被 试 在 新 题 j 作答 错误 的 期 望 人 数 为 EC = nw8。 因 此 ， 
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然后 E(Rjq; 可 计算 如 下 
E(R; | dx xlog0.5) - (0.5xlog osi) + EC xlog0.5) +(0.5 x 1og0.5] = 0.69. 


由 上 述 例子 可 知 ,在 新 题 / 的 q 向 量 正确 时 , ER OR, FAA 0, WEIN NS I aE g(Rj, 9)) 达 
到 最 大 。 因 此 , 在 新 题 y 向 量 未 知 的 情况 下 ,可 以 选择 能 使 炉 的 信息 增益 g(Rj, gj) 最 大 的 4 向 量 作为 新 题 / 
的 估计 q 向 量 。 


附 表 1 不 同 Xok 和 和 wx 产生 方式 下 SIE 和 IGEOCM 方法 的 项 目标 定 精度 


方法 40 80 120 160 200 
SIE 0.589 0.786 0.860 0.897 0.920 
条 件 1 
IGEOCM 0.641 0.823 0.885 0.913 0.938 
AVCER 
T SIE 0.606 0.812 0.896 0.942 0.965 
AR 
IGEOCM 0.668 0.857 0.916 0.950 0.966 
SIE 0.134 0.088 0.068 0.058 0.051 
条 件 1 
IGEOCM 0.132 0.085 0.069 0.060 0.052 
RMSE 
SIE 0.095 0.062 0.049 0.041 0.037 
条 件 2 
IGEOCM 0.095 0.062 0.049 0.041 0.037 


TE: 条 件 1 表示 Dow 和 和 4 分 别 从 正 态 分 布 和 对 数 正 态 分 布 中 产生 ; ARTE 2 表示 设置 Ao = (-1, -0.6, -0.2, 0.2, 0.6, 1)， 且 对 于 所 有 属性 
k 3 Xu 1.5。 


